学术活动|杨坚• “基于社交网络的大数据分析:Twitter中的主题派生”讲座纪要
随着社交媒体迅速崛起及其用户量的不断膨胀,社交平台上时时产出大量富有明确或隐含价值的信息,成为当今学界研究者们眼中的金矿。为了分享研究小组对于社交网络大数据的挖掘和分析成果,2019年1月4日下午,澳大利亚麦考瑞大学杨坚教授于武汉大学信息管理学院313会议室以“基于社交网络的大数据分析:Twitter中的主题派生”为题进行了讲座。
在讲座中,杨坚教授立足于社交网络大数据研究,以其团队对于推特主题派生的具体研究工作为例,与现场师生分享了其研究经验。她首先从社交媒体网络大数据的力量出发,激发大家对于社交网络数据分析的思考;其后主要围绕其团队推特主题派生的研究,对考虑内容和交互的推特主题派生进行介绍,然后进一步介绍在交互中引入时间特征的发展研究;最后对其研究方法与其他研究方法进行了比较分析,并与现场师生进行交流。
录音整理|撰稿 蒋欢
PPT提供 杨坚
1.了解社交网络大数据的力量
杨坚教授首先以古希腊哲人普劳图斯之名言“无论多有智慧,每个人在生活事务上都需要有睿智的朋友给点建言”引入主题,介绍了囊括跨领域跨地域用户的社交媒体信息网络的作用。此外,杨坚教授也强调了获取社交网络信息作为真实数据来源和培养学生真实数据挖掘及清洗能力的重要性。她表明,社交媒体在如今在经济、政治领域乃至整个人类社会中都已无处不在,微信、微博、推特等的活跃用户量均早已超过数亿人次。
爆发式增长的社交网络数据包含很多有价值的信息。其一是内容。社交网络中用户所发布的内容一般是是对某种事件或产品的描述、用户围绕事件所展开的讨论、观点和对某种产品的评分,以及诸如图片标签的各种TAGs标签;其二是关系或联系。社交网络可以看作各种各样用户联系所织就的关系网,其用户关系可能是显著的,也可能是隐含的;其三是互动。互动可以一定程度上显现用户间的关系情况。
通过这些内涵丰富的内容、关系及互动信息,学者们可对以下信息进行进一步推导:
(1)People’s tie/trust/intimacy with each other,用户间的紧密程度和信任程度。如通过微信群中部分用户的互动频率或发言的多米诺效应可推出小群体的内在联系;
(2)People’s taste and like of things,用户的品味和偏好。在社交网络中,公之于众的大量个人内容往往会在一定程度上泄露用户的偏好信息。杨坚教授提到其研究团队曾做过一个Online Dating研究,她认为,用户的社交网络信息相比起自我陈述来说更适合描述用户偏好,也更利于提高匹配对象的成功率。
(3)Influential(resourceful) people,意见领袖。寻找合适的意见领袖作为市场营销的推广节点可以扩大广告的推广面,而通过社交网络的数据分析则可以寻找到适于某领域且影响力高的意见领袖。
(4)Tipping point,爆点/热点预测。安全部门或者产品领域的营销部门通常希望预测爆点的出现,以便进行安全防患或者提高产品的话题热度。此外,可获取的社交网络信息也可以应用于推荐、市场营销、政治竞选等领域中去。
社交网络用户遍及政治到经济的各个领域,各大名人、社会组织乃至政府等都在使用社交网络。除了强调社交网络受众的普遍性外,这一部分杨坚教授重点介绍了其团队与社会福利部门的合作。社会福利部门面向对象涉及社会各阶层人群,它有很多福利信息和福利政策,其工作挑战之一是难以将福利政策点对点精确地传达到相关人群中去,通过研究社交网络则可以帮助受助人群了解其应有福利并得到更好的社会服务。因此,研究如何更好地利用社交网络的力量被赋予了更现实的意义。
2.推特中的主题派生(Topic Derivation on Twitter)
主题派生是一个推断推文(tweet)主题的过程。首先将推文(tweets)分组到同一主题上,其次列出推文集和(tweets)中最重要的单词来表征其中最重要的主题,最终得到每一条推文的主题。
2.1
研究介绍
基于社交网络的大数据分析的相关研究有很多,但现存的分析方法一般都是采用推文内容的各种语义特征(semantic features),大多忽略了推文之间的交互作用。杨坚教授及其研究小组提出了一种新颖的主题推导方法,考虑了推文之间的交互作用(interactions),同时还考虑了用户的行为(actions)和推文的内容(contents)。特别地,主题是通过在推文的交互特征和语义特征上联合执行两步矩阵分解得到的。他们对一段时间内收集到的推文进行了大量实验检测,表明所提出的方法始终优于其他先进的主题推导方法,如LDA、NMF和TNMF等模型。他们的实验还表明,推文之间的交互可以显著缓解由推文的短文本性质造成的稀疏性问题。
2.1.1 案例选择
Twitter作为一个大数据社交网络,已成为全球新闻事件和热点事件的重要来源之一。在Twitter中,每分钟大约有500,000条推文发布,产生了大量非结构化、冗余的社交媒体数据。利用推特数据做主题派生有很多重要的应用场景,可以为社会提供广泛的基础服务,如事件预测、情境感知、市场营销、内容过滤以及为用户提供推荐服务。此外,选择Twitter作为社交大数据分析的对象,对学术界进一步研究复杂社交网络具有引导作用。
2.1.2 相关工作与方法设计
做主题派生需要完成两个方面的工作:(1)把收集到的推文按照内容主题进行聚类(clustering);(2)从推文集和中找一些主题词(keywords)来代表每个集群。主题派生的问题可以通过观察文档集合的隐藏主题结构,并为每个结构选择代表性的单词来解决。这一过程通常称为主题建模(topic modeling)。热门的主题建模方法包括:LDA(Latent Dirichlet Allocation)、PLSA(Probabilistic Latent Semantic Analysis)和NMF(Non-negative Matrix Factorization )。这些方法一般只考虑社交媒体上面的内容(contents),很少考虑交互因素(interactions),时间(time)考虑得更少。同时,这些方法都只适用于长文档(lengthy documents),因为长文档的标题和摘要都比较明确,单词共现和术语重叠的频率很高。而Twitter上面的内容限制在140个字符长度,并且推文经常使用一些非正式语言,而且推特动态性非常强,主题变化非常快。这些都给基于推特数据的主题派生带来了困难。
很多研究都是针对推文的特定性质来进行主题派生,但大多数人都没有考虑到twitter上的交互。有一些研究虽然考虑了交互因素,但只考虑了基于内容的社交功能,如话题标签(hashtag),表情符号和网址。
因此,杨坚教授及其研究小组提出了一种新的方法,通过合并推文之间所有的交互来在Twitter上实现主题派生。这种方法主要采用了两步非负矩阵分解(NMF)来完成:
(1)基于推文之间的关系(内容和交互)进行聚类(clustering);
(2)使用聚类的结果来推导每个集群的代表性单词。
那么Twitter上的社交特征(Social Features)都有哪些呢?以下特征中,following-follower对主题派生没有影响,而剩下四个特征都会被用来建立一个推文之间的网络。
下面是一个小例子(如下表),显示了由各种交互关系连接在一起的6条推文。考虑到这些推文之间的交互作用,我们可以得到两个主题:一个是Sydney’s weather,另一个是a seminar in Sydney。但是如果只考虑内容,很可能会得到以下主题:Sydney和speakers。如下图所示,下图(a)显示了推文和术语(term)之间的关系,下图(b)显示了这6条推文之间的交互关系。
表 Motivating Examples
图 主题派生的两种方法
2.2
在主题派生中考虑交互因素
在该研究中,他们提出了一种新的主题派生方法intJNMF。过程如下,首先定义推文之间的关系,形成一个推特交互矩阵(tweet-interaction matrix),然后执行以下两个步骤:(1)在推特交互矩阵上执行NMF(Non-negative matrix factorization)以获得推文聚类;(2)推断每个主题的主题词。
矩阵分解能帮助我们找到许多事物之间隐含的关系。矩阵可以代表关系、状态等,通过矩阵计算可以得出状态的迁移。下面是一个利用矩阵分解推断用户电影偏好的例子。用户在看完电影以后会进行评分、短评和长文影评等操作。下面这个矩阵是比较稀疏的,因为用户看过、喜欢的、打过分的电影数量是有限的。所以我们建立这样一个矩阵,通过用户已有的数据和其他用户的数据来预测特定用户对特定电影的评分。在做矩阵分解时我们需要考虑,用户对特定电影的评分是否跟性别(gender)、年龄(age)、居住地(location)、教育程度(education)……等潜在因素(K-dimension latent factors)有关。
以下为矩阵分解和矩阵计算的示意图。
2.2.1 测量推文之间的交互作用(Measuring Relationships between Tweets)
推文之间有很多显性或隐性的交互特征(features),如@(mention)、回复(reply)、转发(retweet)、话题标签(hashtag)等,所有这些特征构成了推文的底层网络。
该研究小组将Twitter消息中的社交互动分为两种,基于用户(people)和基于行为(action)。如果有两条及以上的推文共享了一名普通用户,则归类为基于用户的互动。与自包含(self-contained)的推文相比,这类推文共享同一主题的可能性更高。转发和回复被归类为基于行为的互动,当一条推文是转推或回复另一条推文时,它应该与原始推文共享相同的主题。同时,在Twitter上也有许多独立的推文,与其他推文没有任何互动。因此,他们也考虑了基于内容的交互,以此来衡量那些未连接的推文之间的关系。
一个关键问题在于,矩阵里这些元素的值该如何确定,以下为推文交互矩阵和sigmoid函数示意。
2.2.2 推文聚类(Clustering Tweets)
他们通过两个步骤推导出主题:(1)基于推文之间的关系的关系对推文进行聚类,以及(2)使用聚类的潜在因素(latent factors)来学习主题表示。这两个步骤都使用NMF技术,因此他们将这两个连续步骤称为intJNMF。
为了对推文进行聚类,他们对推文交互矩阵A执行非负矩阵分解(NMF)。NMF通常用于将数据矩阵分解为低维表示,后者表示原始数据的隐藏主题结构。无监督聚类是NMF最重要的应用领域之一。
下图是前文中Motivating Examples的矩阵分解示意。矩阵W和矩阵Y是矩阵A的低维表示,使用W可以决定推文的类。在下面的讨论中,他们将W称为推文聚类(tweet-cluster)矩阵,将在intJNMF的第二步——推断代表词(Inferring Representative Words)——中使用。
图 Clustering tweets in the motivating example.
Matrix A is the tweet-interaction matrix, and the latent
matrix W indicates the tweet-clusters in separate dark areas.
2.2.3 主题词推断
每个主题由几个相互之间具有高度相关性的术语表示。为了从文档中捕获主题词,最常见的方法之一是在文档-术语矩阵(document-term matrix)上执行NMF,其中文档术语矩阵的元素表示文档与文档集合中所有术语之间的关系。这种关系经常使用词频-逆文档频率法(term frequency-inverse document frequency, tf-idf)来测量。其中,术语频率tf(s, t)指一个术语在文档t中出现的次数;逆文档频率idf(s, t)是一个度量指标,用来衡量术语s在文档集合t中是常见的还是罕见的。在intJNMF中,他们也使用tf-idf的文档-术语矩阵来抓取推文集和中的主题词。
以下为具体处理算法。
下表显示了在矩阵V上执行joint-NMF之后的术语-主题矩阵H。
算法1描述了intJNMF的整个主题派生过程。
表 term-topic matrix (H) from Joint-NMF on V ≈ W H
3.实验过程及方法评估
杨教授接下来详细介绍了实验过程,并将实验所用方法与其他高级主题派生方法进行比较分析,具体论述了实验数据描述、基线方法、评估标准以及实验的评价和结果。
3.1
数据收集
首先,实验数据是通过推特流API采集从2014年3月3日到2014年3月7日的推特公共数据;数据采集完成后进行数据预处理,即将不相关的术语和符号删除;然后使用python的NLTK包对推文中的术语进行词元化分析;最后出于评估目的,人工标注特定时间内所采集推文的20%作为评价数据集。其中的数据集涵盖广泛,包括政治、旅游、生活娱乐、学校活动等话题。
3.2
基线方法
数据处理完成后,杨教授介绍了如何使用simNMF、TNMF、NMF、LDA等基线方法来运行数据集,然后与实验所用方法的结果做对比,来测试实验的准确性。
3.3
评估标准
接下来,杨教授对实验的评估主要是针对主题派生结果的两个方面:主题一致性和聚类质量。前者表示一个主题的主题词在同一文档中出现的程度,而后者则度量与测试集相比的集群的精确性水平。此评估采取了以下的主题一致性公式Co(k,W);聚类质量的评估遵循纯度、标准化交互信息NMI、成对的F测量等指标。
3.4
方法评估及讨论
通过5次实验来将实验的方法与其他基线方法相比较,并对主题一致性和集群质量的指标进行评估。每个实验对特定数量的预期主题执行5个主题派生方法,将题目的数量定为k(k = 20, 40, 60, 80, 100),从低到高的潜在因素的数量分析算法的性能。对于每一个k和每一个方法都在数据集上运行算法30次,并记录每个评估度量的平均值。对于主题的一致性度量,从“主题词-主题”矩阵H中检索每个主题的前10个单词。下表显示了每种方法、每种主题个数k的主题一致性度量结果,得分越高就表示主题词的内在语义相似度越高。
作为聚类质量评价的一部分,下图a和图b分别给出了纯度和NMI的评价结果。如图所示,在所有主题配置的数量上,intJNMF在纯度和NMI度量方面都显著优于其他方法。
下表为F-Measure的评价结果。由表可知,intJNMF得到的F-Measure与纯度和NMI的测度相似。这一观察证实了intJNMF总是能够达到最高质量的推文聚类。集群质量中有趣的一点是,当主题数量增加时,intJNMF保持稳定状态。
接着,为了进一步研究交互对主题派生质量的影响,他们从实验数据中生成三个子集。每个子集都有不同比例的交互推文,它被定义为回复或转发推文。这三个子集中交互推文的百分比分别为10%、30%和50%。然后将提出的intJNMF与simNMF进行了比较,从下图可以看出,在三个子集中intJNMF的F-Measure值和topic coherence值都高于simNMF,范围从10%到100%。
4.后续研究——使用时间敏感的交互发展推特主题派生研究
在完成了基于内容和互动因素的主题派生研究工作之后,研究团队开始思考时间因素对主题派生的影响、它们之间的关系以及如何引入时间因素进行进一步研究。在研究中,她们发现,内容与时间因素无关;在互动方面,由于转发与回复的时间并不会影响主题的一致性,转发与回复对时间不敏感,而mention行为则具有很大的时间敏感性。
对于这些思考,研究团队进行了一些实验。实验基于mention、reply和retweet(RT)三种互动行为,抓取2015年1月12日至2015年2月12日一个月之内与澳大利亚前15位推特用户相关的推文,共超过600万条推文和80万用户参与其中。
实验结果表明,mention行为具有很强的时间敏感性。在3小时时间间隔内提及@MrKRudd(澳大利亚前总理)的推文分布图中,曲线的每一次峰值都代表一个主题。此外,@同一位用户的推文数量往往迅速达到峰值然后慢慢衰减;达到峰值的速率和峰值衰减的速率是不同的;每个峰值表示特定主题;一般而言与特定主题相关的提及次数在15分钟内达到峰值。
在此之后,研究团队尝试将时间特征加入mention中,并用统计方法来寻找其参数。研究团队最后使用指数衰减的半衰期来作为其参数,并采用指数函数对衰减过程进行建模。
而在对Reply和Retweet行为的实验中,可以观测到Reply和Retweet行为与时间特征无关,其主题一致性并无改变。因此,对于时间特征的考量研究中,研究团队主要在前面方法的基础上,在mention行为中加入时间因子,而其余方法及评估方法则与之前基本相同。结果表明,加入时间因素以后,主题一致性的表现以及其他方面的表现都相较之前有了进步。
5.如何确定不同因素的权重
最后,杨教授还探讨了如何计算多重因素的权重。实验将元组内的因素加在一起,即基于用户的交互、回复转发的行为、内容相似性。实验使用了两个数据集,即已有数据集和抽取的march数据集,其中包含无互动的推文和有较多回复和转发的推文。在这两个数据集中,如果是回复或转发,基本上属于同一个主题;如果是提及,有很大可能性是同一个主题;如果是内容相似性就不一定是同一个主题,所以我们使用Joint Probability Model。如下图所示,在这个模型中,回复或者转发的R(ti,tj)数值是1;提及R(ti,tj)数值要将提及和内容相似性都算进去。
6.结论
(1)内容相似度和推文交互的线性相加并不能准确反映其对主题派生中推文与推文关系的影响。
(2)所提出的联合概率模型,用于更精确地集成内容相似度、提及和回复转发。该模型基于局部连接性分析。
(3)实验结果表明,该模型与基本方法相比有显著的改善。
杨坚教授团队正在进行的有关推特主题的研究如下:
参考文献:
杨坚教授个人简介
杨坚,澳大利亚麦考瑞大学计算机学院教授,科研院长。1995年毕业于澳大利亚国立大学,获多数据库系统领域博士学位。她曾就职于荷兰蒂尔堡大学、澳大利亚CSIRO数学与信息科学实验室、新南威尔士大学计算机科学学院。迄今为止,杨坚教授已在国际会议及期刊发表了200多篇高水平论文,包含ACMtransactions,IEEE transactions, Information Systems, Data & Knowledge Engineering, CACM, VLDB, ICDCS, CAiSE, CoopIS, CIKM等。另外她还是服务计算顶级会议ICSOC的创始人之一,常年担任steering chair一职。此外,她也是多个国际会议的PC member,如 ICDE, CAiSE, ER, CoopIS, ICSOC, BPM, ICWS, SCC, WISE等。她还是诸多国际期刊的常规审稿人,如IEEE Transaction on Knowledge & Data Engineering ,Data & Knowledge Engineering ,VLDB Journal, IEEE Internet Computing 等。
制版编辑 | 朱静
学术活动 | 第十期 新时代图书馆学教育研讨会暨全国图书馆学博士生论坛参会通知
学术活动 | 第九期 新时代图书馆学教育研讨会暨全国图书馆学博士生论坛征文通知(第二轮)
学术活动 | 第八期 新时代图书馆学教育研讨会暨全国图书馆学博士生论坛征文通知
学术活动 | 第七期 林海青•“关联数据与图书馆:案例分析”讲座纪要
学术活动 | 第六期 “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(五)
学术活动 | 第六期 “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(四)
学术活动 | 第六期 “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(三)
学术活动 | 第六期 “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(二)
学术活动 | 第六期 “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(一)
学术活动 | 第五期 第九届全国情报学博士生学术论坛征文通知
学术活动 | 第四期 2018年第十二届全国图书馆学博士生学术论坛会议通知
学术活动 | 第三期 “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会会议通知
学术活动 | 第二期 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要
学术活动 | 第一期 MIS Quarterly副主编、丹麦哥本哈根商学院陈致玮教授来我院作专题报告